25/10/2019

Overview

In questa presentazione vedremo:

  • Introduzione al contesto di applicazione
  • Analisi esplorativa dei dati
  • Introduzione al modello spazio-temporale
  • Stime ottenute
  • Metodologia simulativa
  • Conclusioni
  • Bibliografia

Perchè studiare questo fenomeno?

In una grande città come Milano poter prevedere con anticipo quali zone saranno soggette ad un più grande numero di chiamate, permette una migliore allocazione delle risorse, ed una migliore allocazione conduce ad una maggiore efficienza e tempestività del servizio, caratteristiche fondamentali.

I dati

I dati sono stati forniti da AREU (Azienda Regionale Emergenza Urgenza) e sono relativi a tutte le chiamate avvenute in Lombardia dal 1 Gennaio 2015 al 31 Settembre 2017, anche se per questo lavoro ci si è limitati a studiare gli eventi relativi alla sola area di Milano.

Analisi esplorativa Temporale

Analisi Esplorativa Spaziale

Il modello

Il modello Spazio-Temporale

Si vuole modellare il fenomeno su una superficie spaziale continua \(S \in \mathbb{R}^2\), in un’intervallo temporale discreto \(T= \{1,2,\ldots\}\). Data \(\{s_{i,t}\}\) la i-esima locazione nel t-esimo istante temporale, si ipotizza che \(\{s_{i,t}\}\) segua un processo di Poisson non omogeneo con funzione di intensità spaziale \(\lambda_t(s)\). Il nostro interesse in questo contesto è quello di stimare questa funzione di intensità, e per fare ciò assumiamo che \(\lambda_t(s)\) possa essere riscritta come \[\lambda_t(s)=\delta_t f_t(s) \quad \ s \in S \subseteq \mathbb{R}^2 \quad t \in \mathbb{N} \]

dove:

  • \(\delta_t\) è la componente temporale

  • \(f_t(s)\) è la componente spaziale.

Modello Temporale

Per la definizione di Processo di Poisson (Diggle. (2013)) si ha che \(Y_t \vert\lambda_t \sim Poisson(\delta_t)\) quindi \(\mathrm{E} [Y \vert \lambda_t]=\delta_t\).

Per poter andare avanti dobbiamo ipotizzare che \(\mathrm{E} [Y \vert \lambda_t]=\mathrm{E} [Y \vert \mathcal{F}_{t-1},X]\) (Matteson et al. (2011)) dove \(\mathcal{F}_{t-1}=\{ y_0,y_1,\ldots \}\) e \(X\) sono dei regressori deterministici.

Se impostiamo ora \(\mu_t=\mathrm{E} [Y \vert X]\), moltiplicando e dividendo la formula precedente otteniamo: \[\delta_t= \mu_t \mathrm{E} \biggl[ \frac{Y_t}{\mu_t} \vert \mathcal{F}_{t-1},X \biggr]=\mu_t \eta_t\] dove:

  • \(\mu_t\) è una media condizionata ai regressori deterministici

  • \(\eta_t\) è una sorta di componente reisduale che dipende dal passato detta Condtitional Intensity Inflation Rate (CIIR)

Per stimare \(\mu_t\) si usa un Dynamic Latent Factor Model, mentre per stimare la componente di CIIR si usa un Int-GARCH(1,1) (Fokianos (2012)) (Ferland, Latour, and Oraichi (2006))

Dynamic Latent Factor Model e l’aggiunta di Covariate

Facciamo alcune precisazioni sul Dynamic latent factor model: Data la matrice \(M\) di dimensioni \(d \times m\) dove \(d\) è il numero di giorni considerati e \(m\) è il numero di ore per giorno, l’obbiettivo è quello di ricrivere tale matrice in forma ridotta tramite la seguente scomposizione \(logM=LF'=HBF'\) con \(FF'=I_n\).

Se aggiungiamo una variabile non deterministica? Fino ad ora si è supposo che \(X\) fosse una marice di dati deterministici, un’ idea per provare a migliorare il modello è quella di includere delle covariate di natura stocastica per esempio la Temperatura.

Aggiungendo delle nuove covariate possiamo riscrivere l’ultima formula come \[logM=\binom{H_1}{H_2}(B_1 B_2)F'\]

Componente spaziale

La componente spaziale \(f_u(s)\) viene definita come (Zhou and Matteson (2015)) \[f_u(s)=\frac{ \sum_{t \in T_{obs}} \omega(s_{i,t},u)K_H(s-s_{i,t})}{\sum_{t \in T_{obs}} \omega(s_{i,t},u)}\] dove:

  • \(K\) é un kernel gaussiano bivariato

  • \(H\) è una matrice quadrata contente le bande di lisciamento

  • \(\omega(s_{i,t},u)\) è la funzione dei pesi che serve per dare maggiore peso alle osservazioni che sono influenti nella previsione della funzione di intensità ad un generico istante \(u\).

La funzione dei pesi viene parametrizzata come: \[\omega_c(u-t)=\rho_{1,c}^{u-t}+\rho_{2,c}^{u-t}\rho_{3,c}^{sin^2 ( \frac{\pi(u-t)}{24} )}\rho_{4,c}^{sin^2 ( \frac{\pi(u-t)}{168} )} c \in \{ 1,2,\ldots,C \}\]

Stime di Y

I Factors e i Loadings

La validazione

La metodologia simulativa

Per fare delle simluazioni l’idea è quella di scegliere un arco temporale, fare previsione del numero di eventi su tutta la regione \(S\) ed in seguito distribuire il numero di punti previsto su tutta la regione coerentemente con la funzione di intensità spaziale.

L’operazione di distribuzione degli eventi avviene tramite una procedura definita di thinnig che cosniste in due fasi:

  1. si crea un point pattern sotto assunzione di processo omogeneo e quindi con locazioni completamente random. Per fare ciò si estrae per ogni coordinata e per ogni punto da un Uniforme continua \(Unif(a, b)\), i cui parametri sono rispettivamente a=il minimo del supporto e b= il massimo,

  2. per ogni locazione si estrae da una Bernoulli di probabilità \(p(s) =\frac{\lambda_{max}}{\lambda(s)}\) dove \(\lambda_{max}\) è il massimo della funzione di intensità spaziale e \(\lambda(s)\) e il valore della funzione di intensità spaziale nel punto \(s\). Se esce 1, il punto resta nel point pattern, se esce 0 il punto viene ”bruciato" e quindi escluso.

Indici di performance e dettaglio spaziale

Per valutare la performance previsiva del modello si crea una griglia sulla mappa e si contanto gli eventi per ogni cella. Per avere delle celle abbastaza fitte di eventi si cumulano questi vettori rispetto ad un intervallo temporale prefissato. Gli indici usati sono:

  1. l’ \(R_w^2= \frac{\sum_{i=1}^n(\hat{y_i}-\bar{y_i})^2 \omega_i}{\sum_{i=1}^n(y_i-\bar{y_i})^2 \omega_i}\), dove \(\omega_i\) è l’area della i-esima cella,

  2. il \(TPR\) cioè la proporzione di celle che sono state classificate come 1 (visitate) rispetto al totale delle celle visitate,

  3. l’\(Errore\) il numero di eventi scorrettamente classificati rispetto al totale.

Ma come impatta la dimensione spaziale?

Per stressare il modello vengono fatte variare sia la dimensione temporale sia dimensione spaziale, in particolare vengono presi tre intervalli temporali: 12 ore, 24 ore e 1 settimana. Per quanto riguarda l’area delle celle invece viene fatta variare da un minimo di \(0.49Km^2\) ad un massimo di \(3.06Km^2\)

Tabelle finali

Output Finale

Per vedere meglio

Conclusioni

In conclusione possiamo dire che:

  • all’aumentare della precisione spaziale e temporale (riducendo la grandezza delle celle e diminuendo l’intervallo temporale) le performance del modello tendono ad abbassarsi,

  • si riesce comunque a catturare l’andamento generale e le zone soggette a rischio ma fa più fatica a prevedere la mole di eventi,

  • Il modello fornisce risultati soddisfacenti.

Grazie per l’attenzione

References

Diggle., Peter J. 2013. Statistical Analysis of Spatial and Spatio-Temporal Point Patterns. Chapman; Hall/CRC, 3rd edition.

Ferland, René, Alain Latour, and Driss Oraichi. 2006. “Integer-Valued Garch Processes.” Journal of Time Series Analysis 27 (November): 923–42.

Fokianos, Konstantinos. 2012. “12 - Count Time Series Models.” In Time Series Analysis: Methods and Applications, edited by Tata Subba Rao, Suhasini Subba Rao, and C.R. Rao, 30:315–47. Handbook of Statistics. Elsevier.

Matteson, David S., Mathew W. McLean, Dawn B. Woodard, and Shane G. Henderson. 2011. “Forecasting Emergency Medical Service Call Arrival Rates.” Ann. Appl. Stat. 5 (2B), 1379–1406.

Zhou, Zhengyi, and David S. Matteson. 2015. “Predicting Ambulance Demand: A Spatio-Temporal Kernel Approach.” In Proceedings of the 21th Acm Sigkdd International Conference on Knowledge Discovery and Data Mining, 2297–2303.